M2.855 · Modelos avanzados de minería de datos · PEC1

2021-1 · Máster universitario en Ciencia de datos (Data science)

Estudios de Informática, Multimedia y Telecomunicación

 

PEC 1: Preparación de datos

A lo largo de esta práctica veremos como aplicar distintas técnicas para la carga y preparación de datos:

  1. Carga de conjuntos de datos
  2. Análisis de los datos
    2.1 Análisis estadístico básico
    2.2 Análisis exploratorio de los datos
  3. Reducción de dimensionalidad
  4. Entrenamiento y test

Importante: Cada uno de los ejercicios puede suponer varios minutos de ejecución, por lo que la entrega debe hacerse en formato notebook y en formato html, donde se vea el código, los resultados y comentarios de cada ejercicio. Se puede exportar el notebook a html desde el menú File $\to$ Download as $\to$ HTML.

Importante: Existe un tipo de celda especial para albergar texto. Este tipo de celda os será muy útil para responder a las diferentes preguntas teóricas planteadas a lo largo de cada PEC. Para cambiar el tipo de celda a este tipo, en el menú: Cell $\to$ Cell Type $\to$ Markdown.

Para ello vamos a necesitar las siguientes librerías:

1. Carga del conjunto de datos (1 punto)

En primer lugar, deberéis cargar el conjunto de datos Breast Cancer Wisconsin (más información en https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)). Éste se puede descargar de Internet o puede ser cargado directamente usando una librería de "scikit-learn", que incorpora un conjunto de datasets muy conocidos y empleados para minería de datos y machine learning (https://scikit-learn.org/stable/datasets.html).

Ejercicio: cargad el conjunto de datos "Breast Cancer Wisconsin" y mostrad:
- El número y nombre de los atributos (variables que podrían ser usadas para predecir la respuesta "Diagnosis")
- El número de filas obtenidas
- Verificad si hay o no datos que faltan ("missing values") y en qué columnas
Sugerencia: si usáis sklearn (sklearn.datasets.load_breast_cancer), explorad las diferentes keys del objeto obtenido. Sugerencia: quizá os resulta útil pasar los datos (atributos + target) a un dataframe de pandas.

Vamos a modificar el tipo de datos de la columna target a categórico, puesto que al crear el dataframe conjunto se ha establecido como objeto.